健身分配过程将候选解决方案的特征(例如客观值)转换为标量适合度,然后是选择的基础。在频率健身分配(FFA)下,对应于客观值的适应度是其遇到频率,并且可能会最小化。 FFA创建了不偏向更好的解决方案的算法,并且在目标函数值的所有双突发下都是不变的。我们调查FFA对两种理论启发,最先进的EA,贪婪(2 + 1)GA和自调节(1 +λ,λ)的性能的影响。 FFA对他们难以提高他们的表现。我们经验地发现一种基于FFA的算法可以解决本研究中的所有基于理论的基准问题,包括多项式时间中的陷阱,跳跃和强化。我们提出了两种混合方法,该方法使用直接和基于FFA的优化,并发现它们表现良好。所有基于FFA的算法在满足性问题上也比所有纯算法变体更好。
translated by 谷歌翻译
我们提出和分析了几种随机梯度算法,以查找固定点或非convex中的局部最小值,可能是使用非平​​滑规则器,有限-AM和在线优化问题。首先,我们提出了一种基于降低的差异降低的简单近端随机梯度算法,称为XSVRG+。我们提供了对Proxsvrg+的干净分析,这表明它的表现优于确定性的近端下降(ProxGD),用于各种Minibatch尺寸,因此解决了Reddi等人中提出的一个开放问题。 (2016b)。此外,Proxsvrg+的使用近近端甲骨文调用比Proxsvrg(Reddi等,2016b)使用的距离要少得多,并通过避免进行完整的梯度计算来扩展到在线设置。然后,我们进一步提出了一种基于Sarah(Nguyen等,2017)的最佳算法,称为SSRGD,并表明SSRGD进一步提高了Proxsvrg+的梯度复杂性,并实现了最佳的上限,与已知的下限相匹配(Fang et et et and offang等人(Fang等人)(Fang等人)(Fang等人Al。,2018; Li等,2021)。此外,我们表明,Proxsvrg+和SSRGD都可以自动适应目标函数的局部结构,例如Polyak- \ l {} ojasiewicz(pl)有限的case中非convex函数的条件他们可以自动切换到更快的全局线性收敛,而无需在先前的工作proxsvrg中执行任何重新启动(Reddi等,2016b)。最后,我们专注于找到$(\ epsilon,\ delta)$的更具挑战性的问题 - 当地的最低限度,而不仅仅是找到$ \ epsilon $ -Approximate(一阶)固定点(这可能是一些不稳定的不稳定的鞍座点)。我们证明SSRGD可以找到$(\ epsilon,\ delta)$ - 局部最小值,只需添加一些随机的扰动即可。我们的算法几乎与查找固定点的对应物一样简单,并达到相似的最佳速率。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
由于分布式和联邦学习应用中的通信瓶颈,使用通信压缩的算法引起了显着的关注,并且广泛用于实践中。此外,由于异构客户端的总数通常非常大,并且服务器无法与每个通信中的所有客户端通信,存在联合学习的客户端 - 方差。在本文中,我们通过提出压缩和客户端 - 方差减少方法来解决这两个问题。具体地,我们介绍了COFIG和FRECON,成功享受了客户方差减少的通信压缩。 COFIG的总通信轮是$ O(\ FRAC {(1+ \ OMEGA)^ {3/2} \ sqrt {n}} {s \ epsilon ^ 2} + \ frac {(1+ \ omega)n ^ {2/3}} {s \ epsilon ^ 2})$中的非核心设置,其中$ n $是客户的总数,$ s $是每轮的传达客户端的数量,$ \ epsilon $收敛误差和$ \ omega $是压缩运算符的参数。此外,我们的FRECON可以比非核心设置中的COFIG汇聚,它与$ O(\ FRAC {(1+ \ OMEGA)\ SQRT {n})汇聚在一起。在凸设置中,COFIG在通信中收敛于通信循环$ O(\ FRAC {(1+ \ OMEGA)\ SQRT {n}} $,这也是不存在压缩方案的第一个收敛结果与每轮的所有客户通信。总之,COFIG和FRECON都不需要与所有客户端通信,并提供凸面和非谐波联合学习的第一/更快的融合结果,而以前的作用需要完整的客户端通信(因此不实用)或获得更糟糕的收敛结果。
translated by 谷歌翻译
在互联网上的多种代理环境中的新兴应用程序,如互联网,网络传感,自主系统和联合学习,呼叫分散算法,以便在计算和通信方面是资源有效的有限总和优化。在本文中,我们考虑了原型设置,其中代理正在协作地工作,以通过在预定的网络拓扑中与其邻居通信来最小化局部损失函数的总和。我们开发了一种新的算法,称为分散的随机递归梯度方法(DESTRess),用于非耦合有限和优化,它与集中式算法的最佳增量一阶Oracle(IFO)复杂性匹配,用于查找一阶静止点,同时保持通信效率。详细的理论和数值比较证实了迭代在广泛的参数制度上提高现有分散算法的资源效率。 Descress利用了多个关键算法设计思路,包括随机激活的随机递增渐变渐变更新,具有用于本地计算的迷你批次,梯度跟踪,梯度跟踪,用于额外混合(即,多个八卦轮),用于偏移通信,以及仔细选择超参数和新的分析框架可证明达到理想的计算 - 通信权衡。
translated by 谷歌翻译
由于分布式和联合学习的高通信成本,依赖压缩通信的方法变得越来越受欢迎。此外,最好的理论上和实际上表演梯度类型方法总是依赖某种形式的加速/动量来减少通信数量(更快的收敛)(更快的收敛),例如,Nesterov的加速梯度下降(Nesterov,1983,2004)和Adam(Kingma和Kingma) BA,2014)。为了结合通信压缩和收敛加速的好处,我们提出了基于Anita(Li,2021)的Anita {压缩和加速}梯度方法进行分布式优化,我们称之为CANITA。我们的Canita实现了\ emph {First加速率} $ o \ bigg(\ sqrt {\ big(1+ \ sqrt {\ frac {\ oomega ^ 3} {n}} \ big)\ frac {l} {\ epsilon }} + \ oomega \ big(\ frac {1} {\ epsilon} \ big)^ {\ frac {1} {3}} {3}} \ bigg)$,从而提高了最先进的非加速RAY $ o \ left((1+ \ frac {\ oomega} {n})\ frac {l} {\ epsilon} + \ frac {\ oomega ^ 2 + \ oomega} {\ omega + n} \ frac {1 } {\ epsilon} \右)美元(khaled等,2020)用于分布式一般凸面问题,其中$ \ epsilon $是目标错误,$ l $是目标的平滑参数,$ n $机器/设备的数量和$ \ omega $是压缩参数(较大的$ \ omega $意味着可以应用更多压缩,并且没有压缩意味着$ \ omega = 0 $)。我们的结果表明,只要设备数量为$ n $很大(在分布式/联合学习中经常是真实的),或者压缩$ \ omega $不是很高,Canita达到了更快的收敛速度$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$,即通信轮的数量是$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$(与$ o \ big(\ frac {l} {\ epsilon} \ big)通过以前的作品实现)。因此,天堂岛享有压缩(每轮压缩通信)和加速度(较少的通信轮)的优点。
translated by 谷歌翻译
在本文中,我们提出了一种称为ANITA的新型加速梯度方法,用于解决基本的有限和优化问题。具体而言,我们同时考虑一般凸面和强烈凸面设置:i)对于一般凸有限的和有限的问题,Anita改善了Varag给定的先前最新结果(Lan等,2019)。特别是,对于大规模问题或收敛错误不是很小,即$ n \ geq \ frac {1} {\ epsilon^2} $,Anita获得\ emph {first} optimal restion $ o(n )$,匹配Woodworth and Srebro(2016)提供的下限$ \ Omega(N)$,而先前的结果为$ O(N \ log \ frac {1} {\ epsilon})$ 。 ii)对于强烈凸有限的问题,我们还表明,Anita可以实现最佳收敛速率$ o \ big(((n+\ sqrt {\ frac {\ frac {nl} {\ mu}} {\ mu}})\ log \ log \ frac {1} {1} {1} {1} { \ epsilon} \ big)$匹配下限$ \ omega \ big(((n+\ sqrt {\ frac {nl} {nl} {\ mu}})\ log \ frac {1} {\ epsilon} {\ epsilon} \ big) Lan and Zhou(2015)。此外,与以前的加速算法(如Varag(Lan等,2019)和Katyusha(Allen-Zhu,2017年),Anita享有更简单的无环算法结构。此外,我们提供了一种新颖的\ emph {动态多阶段收敛分析},这是将先前结果提高到最佳速率的关键技术。我们认为,针对基本有限和有限问题的新理论率和新颖的收敛分析将直接导致许多其他相关问题(例如分布式/联合/联合/分散的优化问题)的关键改进(例如,Li和Richt \'Arik,2021年,2021年)。最后,数值实验表明,Anita收敛的速度比以前的最先进的Varag(Lan等,2019)更快,从而验证了我们的理论结果并证实了Anita的实践优势。
translated by 谷歌翻译
我们开发和分析码头:在异构数据集中的非凸分布式学习的新通信高效方法。 Marina采用了一种基于渐变差异的新颖沟通压缩策略,这些差异让人想起,但与Mishchenko等人的Diana方法中所采用的策略不同。 (2019)。与几乎所有竞争对手的分布式一阶方法不同,包括Diana,我们的基于精心设计的偏置渐变估计,这是其卓越理论和实践性能的关键。我们向码头证明的通信复杂性界限明显比以前所有的一阶方法的方式更好。此外,我们开发和分析码头的两种变体:VR-Marina和PP-Marina。当客户所拥有的本地丢失功能是有限和期望形式的局部丢失功能时,第一种方法设计了第一种方法,并且第二种方法允许客户端的部分参与 - 在联合学习中重要的功能。我们所有的方法都优于前面的oracle /通信复杂性的最先进的方法。最后,我们提供了满足Polyak-Lojasiewicz条件的所有方法的收敛分析。
translated by 谷歌翻译
A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
translated by 谷歌翻译
Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.
translated by 谷歌翻译